In this paper, we propose a large-scale language pre-training for text GENeration using dIffusion modEl, which is named GENIE. GENIE is a pre-training sequence-to-sequence text generation model which combines Transformer and diffusion. The diffusion model accepts the latent information from the encoder, which is used to guide the denoising of the current time step. After multiple such denoise iterations, the diffusion model can restore the Gaussian noise to the diverse output text which is controlled by the input text. Moreover, such architecture design also allows us to adopt large scale pre-training on the GENIE. We propose a novel pre-training method named continuous paragraph denoise based on the characteristics of the diffusion model. Extensive experiments on the XSum, CNN/DailyMail, and Gigaword benchmarks shows that GENIE can achieves comparable performance with various strong baselines, especially after pre-training, the generation quality of GENIE is greatly improved. We have also conduct a lot of experiments on the generation diversity and parameter impact of GENIE. The code for GENIE will be made publicly available.
translated by 谷歌翻译
The role of mobile cameras increased dramatically over the past few years, leading to more and more research in automatic image quality enhancement and RAW photo processing. In this Mobile AI challenge, the target was to develop an efficient end-to-end AI-based image signal processing (ISP) pipeline replacing the standard mobile ISPs that can run on modern smartphone GPUs using TensorFlow Lite. The participants were provided with a large-scale Fujifilm UltraISP dataset consisting of thousands of paired photos captured with a normal mobile camera sensor and a professional 102MP medium-format FujiFilm GFX100 camera. The runtime of the resulting models was evaluated on the Snapdragon's 8 Gen 1 GPU that provides excellent acceleration results for the majority of common deep learning ops. The proposed solutions are compatible with all recent mobile GPUs, being able to process Full HD photos in less than 20-50 milliseconds while achieving high fidelity results. A detailed description of all models developed in this challenge is provided in this paper.
translated by 谷歌翻译
旨在解决不完整的多视图数据中缺少部分视图的聚类问题的不完整的多视图聚类,近年来受到了越来越多的关注。尽管已经开发了许多方法,但大多数方法要么无法灵活地处理不完整的多视图数据,因此使用任意丢失的视图,或者不考虑视图之间信息失衡的负面因素。此外,某些方法并未完全探索所有不完整视图的局部结构。为了解决这些问题,本文提出了一种简单但有效的方法,称为局部稀疏不完整的多视图聚类(LSIMVC)。与现有方法不同,LSIMVC打算通过优化一个稀疏的正则化和新颖的图形嵌入式多视图矩阵分数模型来从不完整的多视图数据中学习稀疏和结构化的潜在表示。具体而言,在基于矩阵分解的这种新型模型中,引入了基于L1规范的稀疏约束,以获得稀疏的低维单个表示和稀疏共识表示。此外,引入了新的本地图嵌入项以学习结构化共识表示。与现有作品不同,我们的本地图嵌入术语汇总了图形嵌入任务和共识表示任务中的简洁术语。此外,为了减少多视图学习的不平衡因素,将自适应加权学习方案引入LSIMVC。最后,给出了有效的优化策略来解决我们提出的模型的优化问题。在六个不完整的多视图数据库上执行的全面实验结果证明,我们的LSIMVC的性能优于最新的IMC方法。该代码可在https://github.com/justsmart/lsimvc中找到。
translated by 谷歌翻译
有效的视频识别是一个热点研究主题,具有互联网和移动设备上多媒体数据的爆炸性增长。大多数现有方法都选择了显着帧,而不意识对特定于类的显着性分数,这忽略了框架显着性及其归属类别之间的隐式关联。为了减轻此问题,我们设计了一种新颖的时间显着性查询(TSQ)机制,该机制引入了特定于类的信息,以提供明显测量的细粒线索。具体而言,我们将特定于类的显着性测量过程建模为查询响应任务。对于每个类别,它的共同模式被用作查询,最突出的框架对其进行了响应。然后,计算出的相似性被用作框架显着性得分。为了实现这一目标,我们提出了一个时间显着性查询网络(TSQNET),其中包括基于视觉外观相似性和文本事件对象关系的TSQ机制的两个实例化。之后,实施了交叉模式相互作用以促进它们之间的信息交换。最后,我们使用了两种模式生成的最自信类别的特定阶级销售,以执行显着框架的选择。广泛的实验通过在ActivityNet,FCVID和Mini-Kinetics数据集上实现最新结果来证明我们方法的有效性。我们的项目页面位于https://lawrencexia2008.github.io/projects/tsqnet。
translated by 谷歌翻译
旨在恢复图像中影子区域的原始强度,并使它们与剩余的非阴影区域兼容,而没有跟踪,删除阴影是一个非常具有挑战性的问题,使许多下游图像/视频相关的任务受益。最近,变形金刚通过捕获全局像素相互作用来显示它们在各种应用中的强大能力,并且这种能力在删除阴影时非常可取。然而,由于以下两个原因,应用变压器促进阴影去除是非平凡的:1)修补程序操作不适用于由于不规则的阴影形状而导致阴影去除; 2)阴影去除只需要从非阴影区域到阴影区域的单向交互,而不是图像中所有像素之间的共同双向相互作用。在本文中,我们提出了一种新型的跨区域变压器,即CRFormer,用于去除阴影,它与现有变压器的不同之处仅通过考虑从非阴影区域到阴影区域的像素相互作用而不将图像分为斑块。这是通过精心设计的区域感知的跨注意操作来实现的,该操作可以汇总以非阴影区域特征为条件的恢复的阴影区域特征。与其他最先进的方法相比,关于ISTD,AISTD,SRD和视频阴影删除数据集的广泛实验证明了我们方法的优势。
translated by 谷歌翻译
在最近的联邦学习研究中,使用大批量提高了收敛率,但是与使用小批量相比,它需要额外的计算开销。为了克服这一限制,我们提出了一个统一的框架,该框架基于时间变化的概率将参与者分为锚和矿工组。锚点组中的每个客户都使用大批量计算梯度,该梯度被视为其靶心。矿工组中的客户使用串行迷你批次执行多个本地更新,并且每个本地更新也受到客户平均值Bullseyes的平均值的全局目标的间接调节。结果,矿工组遵循了对全球最小化器的近乎最佳更新,该更新适合更新全局模型。通过$ \ epsilon $ - Approximation衡量,FedAmd通过以恒定概率对锚点进行采样锚点,在非convex目标下达到了$ o(1/\ epsilon)$的收敛速率。理论上的结果大大超过了最先进的算法BVR-l-SGD $ O(1/\ Epsilon^{3/2})$,而FedAmd至少减少了$ O(1/\ Epsilon)$沟通开销。关于现实世界数据集的实证研究验证了FedAmd的有效性,并证明了我们提出的算法的优势。
translated by 谷歌翻译
在联合优化的设置中,在周期性地聚合全局模型的情况下,当参与者通过完全利用其计算资源进行模型训练时,将发生步骤异步。很好地承认,在非i.i.d下,STEP异步导致客观不一致。数据,降低了模型精度。为了解决这个问题,我们提出了一种新的算法\ texttt {fedagrac},它将本地方向校准到预测的全球方向。采取估计取向的优势,我们保证,聚合模型不会过度偏离预期的方向,同时充分利用更快的节点的本地更新。理论上,我们证明\ texttt {fedagrac}保持比最先进的方法的收敛速度提高,并消除了步骤异步的负效应。经验结果表明,我们的算法加速了培训并增强了最终的准确性。
translated by 谷歌翻译
对象视觉导航旨在基于代理的视觉观察来转向目标对象。非常希望合理地感知环境并准确控制代理。在导航任务中,我们引入了一个以代理为中心的关系图(ACRG),用于基于环境中的关系学习视觉表示。 ACRG是一种高效且合理的结构,包括两个关系,即物体之间的关系以及代理与目标之间的关系。一方面,我们设计了存储物体之间的相对水平位置的对象水平关系图(OHRG)。请注意,垂直关系不涉及OHRG,我们认为OHRG适合控制策略。另一方面,我们提出了代理 - 目标深度关系图(ATDRG),使代理能够将距离视为目标的距离。为了实现ATDRG,我们利用图像深度来表示距离。鉴于上述关系,代理可以察觉到环境和输出导航操作。鉴于ACRG和位置编码的全局功能构造的可视表示,代理可以捕获目标位置以执行导航操作。人工环境中的实验结果AI2-Thor表明ACRG显着优于看不见的检测环境中的其他最先进的方法。
translated by 谷歌翻译
我们提出了一种增强的多尺度网络,被称为GriddehazeNet +,用于单图像脱水。所提出的去吸收方法不依赖于大气散射模型(ASM),并提供为什么不一定执行该模型提供的尺寸减少的原因。 Griddehazenet +由三个模块组成:预处理,骨干和后处理。与手工选定的预处理方法产生的那些导出的输入相比,可训练的预处理模块可以生成具有更好分集和更相关的功能的学习输入。骨干模块实现了两种主要增强功能的多尺度估计:1)一种新颖的网格结构,有效地通过不同尺度的密集连接来减轻瓶颈问题; 2)一种空间通道注意力块,可以通过巩固脱水相关特征来促进自适应融合。后处理模块有助于减少最终输出中的伪像。由于域移位,在合成数据上培训的模型可能在真实数据上概括。为了解决这个问题,我们塑造了合成数据的分布以匹配真实数据的分布,并使用所产生的翻译数据来到Finetune我们的网络。我们还提出了一种新的任务内部知识转移机制,可以记住和利用综合域知识,以协助学习过程对翻译数据。实验结果表明,所提出的方法优于几种合成脱色数据集的最先进,并在FineTuning之后实现了现实世界朦胧图像的优越性。
translated by 谷歌翻译
Label noise is ubiquitous in various machine learning scenarios such as self-labeling with model predictions and erroneous data annotation. Many existing approaches are based on heuristics such as sample losses, which might not be flexible enough to achieve optimal solutions. Meta learning based methods address this issue by learning a data selection function, but can be hard to optimize. In light of these pros and cons, we propose Selection-Enhanced Noisy label Training (SENT) that does not rely on meta learning while having the flexibility of being data-driven. SENT transfers the noise distribution to a clean set and trains a model to distinguish noisy labels from clean ones using model-based features. Empirically, on a wide range of tasks including text classification and speech recognition, SENT improves performance over strong baselines under the settings of self-training and label corruption.
translated by 谷歌翻译